import camelot
import matplotlib.pyplot as plt
# 读取PDF文件中的表格
tables = camelot.read_pdf('/home/fengjie/GITEE/pdf2md_without_ocr/inputs/sample.pdf', pages='1', flavor='lattice' ,strip_text=' .\n')  # 使用流式算法
# 或者
# tables = camelot.read_pdf('example.pdf', pages='1', flavor='lattice')  # 使用表格边框检测算法
# camelot.plot(tables[0], kind='grid').show()
# 绘制表格的网格图并保存为文件
# 使用plot来绘制表格并保存
# 使用plot函数绘制表格并保存
fig = camelot.plot(tables[0], kind='grid')

# 保存图像为 PNG
fig.savefig('/home/fengjie/GITEE/pdf2md_without_ocr/output/table_grid.png', bbox_inches='tight', pad_inches=0)


# 将提取的表格保存为HTML格式
tables[0].to_html('/home/fengjie/GITEE/pdf2md_without_ocr/output/table1.html')  # 保存为HTML文件

# 如果有多个表格，可以将所有表格合并后保存为一个HTML文件
tables.export('/home/fengjie/GITEE/pdf2md_without_ocr/output/tables.html', f='html')  # 保存所有表格为HTML文件
